No mundo das pesquisas estatísticas, muitas vezes nos deparamos com situações nas quais gostaríamos de realizar um estudo comparativo. Dessa forma, devemos verificar uma característica muito importante, a independência, ou seja, se existe relação direta entre os elementos dos grupos que estamos estudando ou a seleção de elementos em uma amostra não afeta as demais. Isso se mostra importante em diversos casos como em estudos clínicos que queremos investigar a eficácia de um determinado tratamento ou na comparação do desempenho de estudantes na área educacional. Sendo assim, existem duas abordagens para realizarmos essa verificação: paramétrica e não paramétrica. Neste artigo, vamos focar no teste qui quadrado de independência, um dos principais testes não paramétricos para verificar tal característica.
O teste qui-quadrado de independência, como dito anteriormente, verifica se duas variáveis categóricas possuem uma associação ou se são independentes. Nesse sentido, ele é muito útil em casos onde queremos averiguar se a frequência de uma categoria em uma variável depende da categoria de outra, por exemplo, investigar se o sexo de uma pessoa está associado ao hábito de compra de um determinado produto (compra/não compra).
Para a realização do teste, alguns requisitos devem ser satisfeitos:
Para esse teste, são definidas as seguintes hipóteses:
Será a diferença entre os valores observados e valores esperados supondo independência:
\[\chi^2=\sum_{i=1}^r\sum_{j=1}^s \frac{(O_{ij}-E_{ij})^2}{E_{ij}} \sim \chi^2_{(r-1)(s-1)} \]
Sob a hipótese nula \(H_0\),\(\chi^2\) tem distribuição qui-quadrado com (r-1)(s-1) graus de liberdade.
Primeiro, construímos uma tabela de contingência com os dados observados
O próximo passo é obter os valores esperados para cada uma das células sob a hipótese nula. Ele é calculado da seguinte forma:
\[E_{i,j}=n*(\frac{T_{i.}}{n}*\frac{T_{.j}}{n})=\frac{T_{i.}*T_{.j}}{n}=\frac{\text{Total da linha i}* \text{Total da coluna j}}{\text{Total Geral}}\]
Utilizando o método da região crítica, a hipótese nula é rejeitada se : \[\chi^2 \geq \chi^2_{(r-1)(s-1), \alpha} \]
onde \(\alpha\) é o nível de significância do teste.
No R,existe a função chisq.test() do pacote
base stats,que realiza o teste de qui-quadrado. Ele pode
ser usado tanto para testar a independência entre duas variáveis quanto
para testar a aderência de uma distribuição observada a uma distribuição
teórica.
Entrada:
Saída:
Decisão:
O gênero influencia a preferência por um tipo de produto? Imagine que temos uma pesquisa com 100 pessoas, onde registramos o gênero (Masculino ou Feminino) e a preferência de produto (A ou B).
Preferência | |||
|---|---|---|---|
Genero | A | B | Total |
Masculino | 30 | 20 | 50 |
Feminino | 10 | 40 | 50 |
Total | 40 | 60 | 100 |
Vamos testar a hipótese:
Resolução utilizando o R:
#Montando a tabela de contingência
dados <- matrix(c(30, 20, 10, 40), nrow = 2, byrow = TRUE)
#Realizando o teste qui-quadrado
chisq.test(dados)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: dados
## X-squared = 15.042, df = 1, p-value = 0.0001052
Conclusão:
Como o valor-p (p-value) é menor que 0.05, rejeitamos H0, logo, existe relação entre gênero e escolha do produto.